谷歌研究發表壓縮演算法TurboQuant 節省AI模型對記憶體消耗
2026年03月26日 10:05
外媒報道,谷歌研究(Google Research)周二(24日)發表無需預先訓練的壓縮演算法TurboQuant,能在不影響模型精準度下,將大語言模型(LLM)的KV快取量壓縮至3位元。在英偉達(NVDA.US)H100圖像處理器(GPU)的基準測試中,相較於未量化的32位元鍵值,4位元的TurboQuant在計算注意力邏輯值(attention logits)時的效能提升最高可達8倍,同時將KV快取記憶體減少至少6倍。
KV快取用於儲存先前計算出的注意力資料,使大語言模型無需在每個標記生成步驟中重新計算。隨著上下文視窗不斷擴大,這些快取正逐漸成為主要記憶體樽頸。雖然傳統向量量化方法能縮小快取規模,但由於必須將量化常數與壓縮資料一同儲存,每個值會產生幾位元小量記憶體開銷。在更大上下文視窗下,這些開銷會隨之累積。TurboQuant算法則消除有關樽頸。
記憶體股Sandisk(SDNK.US)及美光(MU.US)隔晚(25日)分別跌3.5%及3.4%。(fc/j)~
阿思達克財經新聞
網址: www.aastocks.com
| 法興精選 |
| 正股及類別 |
產品編號 |
行使價(收回價) |
價格 |
實際槓桿 |
| 輝達 (購) |
11007 |
205 (-) |
0.117 |
7.5 倍 |
| 輝達 (沽) |
11090 |
168 (-) |
0.375 |
2.5 倍 |
| 輝達 (沽) |
10057 |
165 (-) |
0.064 |
11.6 倍 |
| 美光 (購) |
11115 |
700 (-) |
0.355 |
3.8 倍 |
| 美光 (沽) |
11114 |
400 (-) |
1.650 |
1.4 倍 |
訂閱法興認股證/牛熊證資訊
請輸入閣下的電郵地址,以便收到法興認股證及牛熊證最新消息
(請查閱我們的
私隱聲明)。